#políticas en línea

RLCSD: Aprendizaje por Refuerzo con Autodestilación Contrastiva en Política

RLCSD mejora el razonamiento en modelos de IA al corregir la deriva de estilo inducida por privilegios. Descubre cómo supera a GRPO en tareas lógicas y matemáticas.

2026-06-11 · 2 min